Red-teaming language models via activation engineering - kawamou

Red-teaming language models via activation engineering